1 总览
定位:流式数据湖平台,对数据湖提供核心仓库和数据库功能。
面向开源文件格式提供功能:
- tables
- transactions
- efficient upserts/deletes
- advanced indexes
- streaming ingestion services
- data clustering/compaction optimizations
- concurrency
支持分析平台:
- Apache Spark
- Flink
- Presto
- Trino
- Hive
2 核心概念
- Hudi Timeline – 管理事务和表服务
- Hudi File Layout - 文件分布方式
- Hudi Table Types –
COPY_ON_WRITE
和MERGE_ON_READ
- Hudi Query Types – 快照查询、增量查询和读优化查询